智能论文笔记

2D图像中对象检测的最受欢迎的评估度量是联合（IOU）的交集。3D对象检测的IOU指标的现有实施通常忽略一个或多个自由度。在本文中，我们首先为三维边界框提供分析解决方案。作为第二个贡献，得出了体积到体积距离的封闭形式解决方案。最后，提出边界框差为组合的正连续度量。我们将三个指标的开源实现作为独立的Python函数，以及Open3D库和ROS节点的扩展。

translated by 谷歌翻译

Contextformer: A Transformer with Spatio-Channel Attention for Context Modeling in Learned Image Compression

A. Burakhan Koyuncu , Han Gao , Atanas Boev , Georgii Gaikov , Elena Alshina , Eckehard Steinbach

分类：计算机视觉 | 机器学习

2022-03-04

熵建模是高性能图像压缩算法的关键组件。自回旋上下文建模的最新发展有助于基于学习的方法超越了经典的方法。但是，由于潜在空间中的空间通道依赖性以及上下文适应性的次优实现，这些模型的性能可以进一步提高。受到变压器的自适应特性的启发，我们提出了一个基于变压器的上下文模型，名为ContextFormer，该模型将事实上的标准注意机制推广到时空通道的注意力。我们用上下文形式替换了现代压缩框架的上下文模型，并在广泛使用的柯达，Clic2020和Tecnick Image数据集上进行测试。我们的实验结果表明，与标准多功能视频编码（VVC）测试模型（VTM）16.2相比，提出的模型可节省多达11％的利率，并且在PSNR和MS-SSIM方面优于各种基于学习的模型。

translated by 谷歌翻译

许多深度学习方法已成功地解决了计算机视觉和语音识别应用中的复杂任务。但是，已经发现这些模型的鲁棒性很容易受到扰动的输入或对抗性示例的攻击，这些示例是人眼无法察觉的，但导致该模型做出错误的输出决策。在这项研究中，我们适应并介绍了两个几何指标，密度和覆盖范围，并评估它们在未见数据批次中检测对抗样本中的使用。我们使用MNIST和两个来自MedMnist的现实世界生物医学数据集的经验研究这些指标，并受到了两种不同的对抗攻击。我们的实验显示了两个指标检测对抗示例的有希望的结果。我们认为，他的工作可以为这些指标在部署的机器学习系统中的使用而进一步研究，以监视对抗性示例或相关病理（例如数据集移动）可能攻击的攻击。

translated by 谷歌翻译